Ace-Step 1.5
公式の実装
table:DiT
DiT Model SFT RL CFG Step Refer audio Text2Music Cover Repaint Extract Lego Complete Quality Diversity
acestep-v15-base ❌ ❌ ✅ 50 ✅ ✅ ✅ ✅ ✅ ✅ ✅ Medium High
acestep-v15-sft ✅ ❌ ✅ 50 ✅ ✅ ✅ ✅ ❌ ❌ ❌ High Medium
acestep-v15-turbo ✅ ❌ ❌ 8 ✅ ✅ ✅ ✅ ❌ ❌ ❌ Very High Medium
acestep-v15-turbo-rl ✅ ✅ ❌ 8 ✅ ✅ ✅ ✅ ❌ ❌ ❌ Very High Medium
table:TE
LM Model Pretrain from Pre-Training SFT RL CoT metas Query rewrite Audio Understanding Composition Capability Copy Melody
acestep-5Hz-lm-0.6B Qwen3-0.6B ✅ ✅ ✅ ✅ ✅ Medium Medium Weak
acestep-5Hz-lm-1.7B Qwen3-1.7B ✅ ✅ ✅ ✅ ✅ Medium Medium Medium
acestep-5Hz-lm-4B Qwen3-4B ✅ ✅ ✅ ✅ ✅ Strong Strong Strong
パラメータ数が前モデルより少し減っている
テキストエンコーダー込だと最大では増えている?
以下結構長いので一部引用、全体は↑のリンクから
メンタルモデル
人間中心の設計
このモデルはワンクリック生成のためではなく、人間中心の生成のために設計されています。
この違いを理解することが重要です。
ワンクリック生成とは?
プロンプトを入力し、生成をクリックし、いくつかのバージョンを聞いて、良さそうなものを選んで使用します。別の人が同じプロンプトを入力すると、おそらく似た結果が得られます。
このモードでは、あなたとAIはクライアントとベンダーの関係です。明確な目的を持って来て、頭の中に曖昧な期待があり、AIがその期待に近い製品を提供することを望みます。本質的には、Googleで検索したり、Spotifyで曲を探したりするのと大差ありません——カスタマイズが少し増えただけです。
AIはサービスであり、創造的なインスピレーションを与えるものではありません。
人間中心の生成とは?
AIの層を弱め、人間の層を強化する——より多くの人間の意志、創造性、インスピレーションがAIに生命を与える——これが人間中心の生成です。
ワンクリック生成の強い目的性とは異なり、人間中心の生成はより遊びの性質を持っています。それは対話的なゲームのようなもので、あなたとモデルは協力者の関係です。
ワークフローは次のとおりです:いくつかのインスピレーションの種を投げ、いくつかの曲を得て、そこから興味深い方向を選択して反復を続けます——
プロンプトを調整して再生成
Coverを使用して構造を維持し、詳細を調整
Repaintで局所的な変更
Add Layerで楽器の層を追加または削除
この時点で、AIはあなたにとってサービス提供者ではなく、インスピレーションを与えるものです。
要するに「AIに叩き台を作らせる→叩き台の使えそうな所を残して変えたい所を編集指示→AIが編集する→編集したものをベースに更に修整したい所を指示する→AIが編集する→(以降納得するまで繰り返し)」のようなフローを想定しているようだ。
アーキテクチャ
https://gyazo.com/24e946ea4ed800fc2b127a38a935d8f9
1D VAE
48kHzステレオを64次元潜在空間に圧縮
DiT
Masked Generative Framework
latent + マスク操作で6つのタスクができる
https://gyazo.com/3924343ec32e1007c875273efd669b63
1. text2music
2. カバー
3. Repainting (inpainting)
4. トラック抽出
音源から特定の音(e.g. ボーカル、ドラム)だけ取り出す
5. Layering
既存のトラックに音を足す
6. Completion
短いモチーフからアレンジを加えて曲を仕上げる
言語モデル
ACE-Step 1.5は、音のレンダリングはDiT、プロンプト整形+設計図づくりは言語モデルと役割分担をしている
Composer Agent (Qwen LMベースの作曲エージェント)が、ユーザーの曖昧な指示をYAML形式のメタデータ(BPM / key / duration / structure…)に書き換える
設定したパラメータを直接テンプレ文字列にしている
前